查看原文
其他

CXL技术深度剖析:机遇、挑战与市场展望

常华Andy Andy730
2025-01-01

CXL技术演进时间线

  • CXL 1.0(2019年3月)
    • 成立推动者联盟(Intel和Microsoft为核心成员)
    • 发布基于PCIe 5.0的CXL 1.0规范
  • CXL 2.0(2020年11月)
    • 保持向下兼容性
    • 引入交换和内存池化功能
    • 基于PCIe 5.0架构
  • Gen-Z整合(2022年2月)
    • 基于2020年4月签署的双方谅解备忘录
    • 实现两种协议的互通桥接
    • Gen-Z技术资产完全转移至CXL联盟
  • CXL 3.0(2022年8月)
    • 保持向下兼容性
    • 强化交换和内存池化功能
    • 带宽性能较CXL 2.0提升一倍
    • 基于PCIe 6.0架构
  • OpenCAPI整合(2022年8月)
    • OpenCAPI全部技术资产转移至CXL联盟
    • 包含Open Memory Interface (OMI)规范
  • CXL 3.1(2023年11月)
    • 保持向下兼容性
    • 支持加速器间内存共享
    • 基于PCIe 6.1架构

CXL技术的市场驱动因素

  1. 内存成本上升导致服务器TCO激增:随着处理器性能的提升,内存需求不断增加,导致内存成本飙升,进而推动服务器机箱价格上升。
  2. 内存绑定特定设备导致资源浪费:服务器专用内存往往出现利用不足,特别是在处理核心未满负荷时,导致内存分配效率低下。
  3. 对内存普及化和低延迟应用的需求增长:除了AI/ML,内存数据库、HPC、金融建模和EDA等应用对内存容量和低延迟要求也日益增加。
  4. 异构商用计算设备的广泛应用:由于商用硬件部署、维护和更新成本较低,数据中心来越倾向于采用异构计算设备。
  5. CPU性能与内存带宽差距扩大:处理器性能的提升速度超越了DRAM密度的增长,导致内存访问瓶颈,而加速器和GPU的快速发展加剧了这一趋势。

CXL技术的挑战
  1. 软件发展滞后:尽管CXL 2.0设备即将量产,但软件优化尚未跟进,这可能影响CXL的大规模部署。
  2. GPU支持不足:GPU厂商的路线图中目前没有CXL接口,尽管CXL 3.0允许GPU访问内存池,但CXL 3.0设备短期内无法商用。
  3. 数据中心更新成本高:在现有数据中心部署CXL需要大量更新换代,这将耗费大量时间、精力和成本。

CXL技术的机遇
  1. 内存扩展方案经济高效:CXL以较低成本扩展内存容量并保持低延迟,相比其他方案(如SSD交换),CXL更具经济性和技术先进性。
  2. 支持传统AI应用在CPU上运行:许多传统AI应用依赖CPU而非GPU,CXL与AMD和Intel CPU兼容,短期内能显著提升AI/ML应用性能。
  3. 受益于新数据中心建设:随着AI/ML工作负载的增长,数据中心容量需求增加,预计未来两年将迎来新建数据中心的建设热潮。
  4. 早期合作验证技术潜力:通过产业合作伙伴的原型系统,CXL在多个应用场景中已展示出潜力,这些PoC系统有助于加速技术成熟并解决集成挑战。
  5. 软件优化提升CXL性能:与ISV合作开发中间件,解决跨NUMA节点内存访问问题,优化数据布局,Linux 6.10对CXL的支持将进一步优化内存使用,减少软件瓶颈。
  6. JEDEC新标准加速CXL设计:JEDEC新标准支持CXL内存模块实施,简化系统设计,加速产品开发,并增强CXL的市场可信度。
  7. CXL 3.1为GPU带来机遇:CXL 3.1通过交换机扩展GPU对共享内存池的访问,绕过主机或SSD直接访问数据,为GPU内存池扩展提供低延迟支持,缓解内存瓶颈。
  8. 主要CPU厂商支持CXL发展:AMD、Intel等CPU厂商持续支持CXL 1.0+和2.0+,推动CXL的普及。CXL控制器和内存厂商如Astera Labs、Rambus也积极支持CXL发展。
  9. CXL规范快速发展推动行业协同:CXL规范的快速演进为新应用场景带来机遇,数据中心和超大规模服务商可根据技术更新周期规划CXL采用,向后兼容性保证了其高效实施。

CXL的发展前景
  • 近期(未来3年):CXL 2.0解决方案实现规模化生产和商用部署,主要应用于新建数据中心和企业服务器,支持内存密集型应用。
  • 中期(3-7年):CXL 3.0/3.1解决方案实现商用,支持更多带宽敏感应用,包括AI/ML。生态系统合作加强,推动可组合基础设施和虚拟化技术发展。
  • 长期(7年以上):CXL实现广泛部署,大多数CPU采用CXL 3.0+。部分商用GPU将与CXL兼容,支持前沿AI/ML工作负载。超大规模厂商采用基于虚拟化和可组合基础设施的新型内存解决方案,“内存即服务”广泛应用。

企业动态
  1. Intel:CXL联盟核心成员,积极推动CXL技术发展,其Xeon系列CPU已支持CXL。
  2. AMD:积极支持CXL技术,其EPYC系列CPU已支持CXL。
  3. Microsoft:CXL联盟核心成员,在其云服务中支持CXL技术应用。
  4. NVIDIA:GPU市场领导者,目前尚未明确支持CXL,但未来可能将其纳入GPU解决方案。
  5. 三星:积极开发CXL内存解决方案,并与VMware合作推动生态系统建设。
  6. Astera Labs:CXL控制器供应商,致力于推动CXL 1.1和2.0的云规模互操作性。
  7. Rambus:内存解决方案供应商,已在其部分内存控制器解决方案中采用CXL 3.1规范。
  8. SK hynix:内存解决方案供应商,在其AI内存解决方案中整合CXL技术。
  9. VMware:虚拟化软件供应商,支持三星的CXL内存解决方案,并积极参与CXL生态系统建设。
  10. Red Hat:企业级开源解决方案提供商,参与CXL生态系统建设,推动CXL技术在企业级应用中的落地。
  11. MemVerge:内存虚拟化软件供应商,开发基于CXL的内存池化和软件定义内存解决方案。
  12. Panmnesia:内存解决方案供应商,与KAIST合作进行CXL在GPU领域的应用测试。

----------

摘要

  • 数据中心正面临计算能力与内存性能差距持续扩大所带来的技术与商业挑战。
  • Compute Express Link (CXL) 提供了一种经济高效的缓存一致性互连方案,有效解决了内存带宽瓶颈和内存资源碎片化问题,特别适用于内存密集型和内存弹性需求的工作负载。
  • CXL通过扩展内存访问能力,显著提升了生成式AI(Generative AI)和传统AI/ML工作负载的性能,尤其在大语言模型(LLM)推理加速等场景中发挥关键作用。
  • 尽管CXL市场仍处于起步阶段,但在市场领导者的广泛支持下,加之数据中心TCO的考量,推动了处理器、FPGA等加速器及内存厂商对这一标准的采用。目前已有超过20款CXL 1.1/2.0设备通过官方合规性认证,更多产品正在研发中。
  • 虽然商业部署正在推进,业界也在积极应对技术和商业挑战,这将催生CXL的创新应用并加速其普及进程,预计到2027年将实现规模化应用。
  • 软件优化、生态系统整合及市场教育的持续推进,是释放CXL技术潜力的关键要素。

引言

数据中心面临的核心技术和经济挑战之一是处理器性能与内存可扩展性之间的差距不断扩大。这一问题随着内存密集型AI/ML工作负载的快速增长而愈发突出,促使市场对具备内存一致性访问能力的高性价比计算系统需求持续上升。在多处理单元间保持高效、一致且有序的内存访问变得至关重要。同时,内存成本在数据中心总支出中的占比不断攀升。

CXL为处理器、加速器和内存提供了业界标准的缓存一致性互连方案,有效应对了数据密集型应用在扩展内存带宽和容量方面的挑战,以高效且具有成本效益的方式解决这些问题。

尽管市场仍处于初期阶段,CXL技术在应对AI发展驱动的数据中心内存挑战方面具有战略意义,特别是在近内存计算(Near-Memory Computing)加速和异构计算(Heterogeneous Computing)领域。这项技术有望从根本上改革系统架构、提升性能、增强能效,并显著降低成本。然而,由于数据中心规模化部署需要经过全面的验证周期,CXL尚未实现广泛商用。软件优化、生态系统整合和市场教育是当前正在推进的三个关键领域,这符合新兴技术的典型发展轨迹,且得到了期望从中获得显著收益的产业生态系统的支持。

CXL概述

什么是CXL?

Compute Express Link (CXL) 是一项开放的行业标准互连技术,专门为高速、大容量和高效的处理器与设备间、处理器与内存间的通信而设计。该标准自2019年首次发布以来,已发展至第三代,并于2023年11月发布了CXL 3.1规范。

CXL主要面向数据中心市场,同时也将深刻影响企业服务器领域,使服务器厂商能够提供差异化的板卡和机箱设计。CXL的核心目标是解决日益严重的内存访问瓶颈问题,这一瓶颈限制了设备从系统内存中获取指令和数据的速度。

CXL通过以下方式提升系统性能:

  • 扩展可用内存容量

  • 通过PCIe物理层提升带宽

  • 减少DDR内存与SSD之间的系统内存交换开销

这些优化显著降低了内存访问延迟,提升了应用程序性能。

CXL实现了三个核心协议:
  • CXL.io:作为基础通信协议,功能对标PCIe 5.0(CXL 3.0后升级至PCIe 6.0)。该协议负责链路初始化、设备发现和连接管理,是CXL设备运行的基础架构。
  • CXL.cache:实现从外部设备到处理器内存的一致性访问。使CXL主机能够与设备共享内存,减少软件层面的一致性管理开销,提升整体性能。
  • CXL.mem:支持主机和设备对设备附加内存的一致性访问。这是一种事务协议,可兼容多种内存接口,包括DDR、Optane和HBM。该协议支持内存共享与池化、基于工作负载需求的动态内存分配,提高系统效率和资源利用率,尤其适合在多种处理架构上运行的异构AI工作负载。
基于上述协议,CXL设备分为三类:
  • Type 1设备:
    • 典型代表为智能网卡(SmartNIC)等无本地内存的加速器
    • 使用CXL.io和CXL.cache协议
    • 通过CXL与主机处理器的DDR内存通信
    • 主要用于卸载和加速主处理器的特定计算任务
  • Type 2设备:
    • 包括GPU、ASIC和配备DDR/HBM的FPGA
    • 使用全套协议(CXL.io + CXL.cache + CXL.mem)
    • 可共享本地内存资源给CPU使用
  • Type 3设备:
    • 专注于内存扩展功能的设备
    • 使用CXL.io和CXL.mem协议
    • 通过PCIe接口连接到CPU,同时使用CXL协议进行内存操作

自2019年问世以来,CXL技术快速演进,推出了多个规范版本以支持不同应用场景。值得注意的是,竞争性标准Gen Z和Open CAPI已整合入CXL生态系统。最新的重要进展包括CXL 3.0和3.1与PCIe 6.0和6.1的协同,为内存密集型AI/ML应用提供了充足带宽支持。特别是2023年11月发布的CXL 3.1版本,借助PCIe 6.1实现了高达128Gbps的双向数据传输能力。

目前,CXL在市场上没有直接竞争对手,因为此前的开放标准和专有解决方案(如OpenCAPI、Gen-Z和CCIX)已经整合到CXL标准中。这种整合进一步巩固了CXL作为统一互连标准的地位。

CXL特性

自2019年以来,CXL技术快速迭代演进,每个版本规范都引入了新特性,以支持更多内存密集型应用场景。

CXL 3.0的突出优势在于实现了可组合服务器基础设施(Composable Server Infrastructure)。该架构基于虚拟化资源池,能够根据实时需求在设备间智能共享和调配资源。通过资源间的一致性内存共享,CXL 3.0支持服务器解耦和资源可组合性。

可组合服务器基础设施带来三大核心优势:
  • 通过连接各服务器中的分散资源池,提升整体资源利用率
  • 通过动态资源分配优化应用性能,降低资源过度配置成本
  • 引入"内存即服务"(Memory-as-a-Service)新模式

关键市场驱动因素

随着AI应用的普及,数据中心面临严峻挑战。内存已成为关键瓶颈,DRAM成本在服务器物料清单(BOM)中占比持续攀升。处理器访问额外DRAM的替代方案是使用SSD,但DRAM与SSD之间存在显著的延迟差距,影响了应用性能和TCO。这种差距导致计算资源利用率低下,加剧了数据中心效率问题。

此外,随着CPU每代更新,计算核心数量和性能的增长已超过DRAM密度提升,形成内存访问瓶颈,处理器性能与内存带宽的差距持续扩大。加速器和GPU等并行与矩阵处理架构的快速发展使这一问题更加突出,其性能提升已远超DRAM发展速度。

图2:处理器性能与内存带宽差距演进分析

将内存高效连接到计算引擎并实现成本效益最优的性能管理,已成为计算市场的重大挑战。以下分析探讨了推动统一接口标准需求的关键因素。

增加内存导致服务器TCO呈指数增长:

图表1:机箱成本与内存容量增长关系

随着计算生态系统中处理器与内存性能差距的不断扩大,增加内存容量成为了提升系统性能的常见手段。然而,这一做法却带来了服务器TCO的显著增长,其中机箱成本的飙升尤为突出。
性能差距主要体现在以下几个方面:处理器的运算速度远超内存访问速度;有限的内存带宽限制了数据流动;以及由于内存层次结构的复杂化、内存控制器管理通道能力的限制,以及刷新周期更频繁且更长,导致从内存中检索数据延迟增加。图表1显示了随着内存容量的增加,机箱成本呈指数级增长,凸显了这种看似简单的解决方案所带来的经济影响。
机箱成本的增长源于高密度内存对制造工艺的要求更高,从而导致成本增加。

内存与特定设备绑定导致资源效率低下:

服务器专用内存普遍存在资源利用不足问题,特别是当服务器处理核心未充分使用时。这种低效率对云服务商(CSP)造成严重影响,主要体现在两个方面:
  • 内存分配未被充分利用
  • 内存容量被锁定在单一服务器中
提高资源效率需要创新方法,如允许内存在数据中心内不同服务器或计算设备间共享,并支持按计算需求动态分配。这种方法可以:
  • 提升数据中心集群的整体内存利用率
  • 通过更高效的硬件使用降低CSP的TCO
  • 通过灵活的内存分配提升应用性能
  • 增强对实时工作负载需求变化的适应能力

内存普及化和延迟敏感型应用需求:

AI/ML只是依赖HBM和低延迟内存的应用之一。其他工作负载如内存数据库(In-Memory Database, IMDB)、高性能计算(HPC)、金融建模和电子设计自动化(EDA)同样对内存和延迟有严格要求。在现代计算环境中,能够充分利用DDR内存标准进展的先进互连技术变得至关重要。这些应用可通过先进互连技术减少对SSD扩展内存的依赖,避免因使用SSD导致的100-1000倍延迟增加。

异构商用计算设备的广泛应用:

由于商用硬件具有成本优势以及更低的部署、维护、开发和更新成本,数据中心供应商越来越关注这一领域。互连技术必须与各类标准化服务器和设备兼容。截至2024年10月,官方CXL集成商名录已收录23款CXL 1.1设备。其中,Type 1和Type 2设备的一致性特性特别适用于金融科技和虚拟机迁移等场景。在软件支持方面,Linux内核5.15已实现对Type 3设备的全面支持。

CXL的价值主张

CXL技术的开发旨在解决数据中心面临的重大内存挑战,这些挑战源自多个市场驱动因素:附加内存与SSD存储的性能差异、资源低效利用导致的资源滞留、处理器与内存通道(DRAM密度)性能差距扩大造成的内存瓶颈,以及处理器间对内存一致性的需求。解决这些问题将显著提升计算性能并降低TCO,从而支持内存数据库(In-Memory Database, IMDB)、高性能计算(HPC)和AI/ML等内存密集型工作负载的高效部署。

图3:基于CXL的内存扩展性能提升分析

以下是对CXL技术价值和商业价值的分析:

一致性(Coherency)

CXL维护统一的内存系统,使多个组件能够实时共享和访问同一内存空间,无需担心数据不一致问题。这不仅实现了资源共享,还支持通过CXL连接的各类设备扩展系统内存。

基于PCIe架构(Built on PCIe)

PCIe在CPU、GPU、存储设备和网络接口等各类设备中的广泛应用确保了广泛的兼容性。PCIe物理接口的开发成本较低,同时CXL可充分利用PCIe在带宽、电源管理、错误检测和可扩展性等方面的优势特性。

内存一致性(Memory Coherency)

与PCIe的对齐为高效实现一致性机制奠定基础,确保系统数据一致性,减少了频繁且冗余的数据传输需求。

交换/路由与工作负载管理(Switching/Routing & Workload Management)

CXL交换机支持异构设备间的通信,优化工作负载和内存管理。这使得通过共享内存(系统分解)将内存从计算资源中解耦成为可能,促进了更具可扩展性的解决方案,并通过虚拟机(VM)网络分配内存,推动向软件定义虚拟化转型,实现更灵活和动态的资源访问。

开放标准与跨生态系统支持(Open Standards & Cross Ecosystem Support)

新内存解决方案通常需要2-3年时间实现商业规模。具备生态系统支持的开放标准能够通过加速验证、设备兼容性、中间件开发和软件开发,缩短上市时间(Time to Market, TTM)。Intel、AMD等CPU市场主要厂商通过在各代产品中支持CXL发挥关键作用,确保市场稳定性,保证研发投资能够应对未来技术挑战。

设备无关性(Device Agnostic)

CXL与DDR5和HBM等广泛部署的内存技术无缝集成,展现了架构灵活性。CXL支持服务器中的任何设备,特别适合日益普及的异构模型和不断增长的AI/ML工作负载。设备无关性使商用硬件的部署和升级变得可行。考虑到大多数服务器采用模块化方式升级,这种简便且具有成本效益的特性为服务器带来巨大价值。

安全性(Security)

CXL规范不断增强高级安全特性,保护CXL链路传输的数据。这包括实现硬件根信任(Hardware Root of Trust),为安全启动和安全固件下载提供基础支持。此外,所有三种CXL协议都通过完整性和数据加密(Integrity and Data Encryption, IDE)确保数据的机密性、完整性和重放保护,这对AI/ML和HPC计算应用尤为重要。

CXL的机遇与挑战

基于关键市场驱动因素和CXL的价值主张,CXL技术有望从根本上改变数据中心和企业市场解决服务器内存问题的方式,为克服技术和商业障碍提供创新方案。以下深入分析CXL面临的主要机遇与挑战。

机遇

内存密集型应用的经济效益

内存扩展是CXL最早的应用场景之一。许多高价值、数据密集型应用虽然依赖CPU,但在内存容量上面临巨大挑战。CXL凭借经济性和技术优势(相比于使用SSD交换),为数据中心提供了优化解决方案,在保持低延迟的同时解决计算能力提升带来的内存扩展需求。

传统AI应用的CPU依赖

尽管前沿AI应用依赖GPU(配备HBM)和ASIC加速器,大量商用规模的传统AI应用仍将基于CPU。考虑到CXL标准与AMD和Intel的CPU兼容,短期内CXL将在AI/ML领域带来显著收益。例如,Intel第四代Xeon Scalable处理器系列内置的AMX AI加速器可借助CXL提升生产力。AI使能CPU平台的广泛应用为CXL优化AI/ML工作负载创造了巨大市场机会。

AI/ML推动新数据中心建设

技术更新周期将在CXL规模部署中发挥重要作用。企业AI/ML工作负载的增长正驱动新数据中心容量需求。我们预计未来两年将出现大规模开发建设。即便CXL仅支持CPU与内存互联,也将从这类计算部署中受益。

早期解决方案验证应用场景

尽管CXL商业解决方案尚未普及,通过产业合作伙伴生态系统已开发出多个前景广阔的原型系统,整合多种硬件和软件组件,展示了CXL在各类场景中的潜力。这些早期概念验证(PoC)系统对验证CXL的多功能性和有效性至关重要,不仅验证了实际商业产品的性能提升潜力,还帮助相关方识别并解决CXL实施过程中的集成挑战。

软件优化提升应用性能

新型内存架构若缺乏应用优化,可能因跨非一致性内存访问(NUMA)问题影响应用性能。然而,与VMware、MemVerge、SAP、Red Hat等独立软件供应商(ISV)的合作,可通过中间件开发解决这些性能问题,优化跨NUMA节点的数据布局,实现应用内存模式的持续监控。Linux 6.10对CXL的支持将通过使应用能够管理NUMA节点,确保内存使用优化,减少软件障碍。

系统设计简化与成熟化

联合电子设备工程委员会(JEDEC)发布新标准支持CXL内存模块实施。开放的CPU和DRAM供应商、内存和CXL控制器供应商明确了接口参数、信号协议、环境要求和封装等特性,为CXL附加内存模块实现提供参考。这一开放标准简化了系统设计,加速产品开发,提升CXL可信度。鉴于JEDEC在DRAM市场的重要地位,这是推进部署的关键一步。

GPU直接支持的发展机遇

CXL 3.1规范通过扩展对CPU共享内存池的访问进一步推动标准发展,使GPU能够通过交换机直接访问内存,无需经过主机或SSD。此前内存池仅限于CPU、单一交换机和有限的多级交换机使用。尽管GPU需要超低延迟的HBM(如AMD MI300X加速器的内置内存)支持前沿AI和HPC工作负载,但应用程序往往受内存限制,需要增加GPU数量并分配向量计算来缓解瓶颈。Panmnesia和KAIST的早期测试显示,CXL IP可提供支持这些工作负载所需的十几纳秒级延迟,为扩展GPU内存池提供重要机遇。

主要CPU厂商持续支持

尽管CXL 3.0已扩展支持GPU,该标准最初是为支持CPU而开发。投资者依赖AMD和Intel这些"市场制造商"确保合规性和验证。CXL 1.0+和2.0+支持已在AMD EPYC 9004/9005系列和Intel第四代/第五代Xeon系列中实现多年。CXL控制器和内存设备领域,Astera Labs持续推进CXL 1.1和2.0,展示与领先CPU和内存供应商的云规模互操作性;Rambus在内存控制器解决方案中采用CXL 3.1规范;SK hynix宣布在即将推出的AI内存解决方案中整合CXL。这些关键"市场制造商"的长期支持对推动行业投资和普及至关重要。

规范发展与行业协同

CXL规范的快速发展带来新应用场景机遇。行业在专注CXL 2.0实施的同时,对CXL 3.0潜力的讨论彰显了技术前景。这种双重关注使数据中心、企业和超大规模厂商能够基于技术更新周期战略性规划CXL采用。审慎推进确保投资最优化,为计算领域的广泛高效实施铺平道路,所有CXL标准的向后兼容性为此提供支持。

挑战

硬件软件集成进展

CXL 2.0设备向商业规模过渡为软件优化提供契机。尽管这可能暂时减缓大规模部署,但对最大化CXL潜力至关重要。优化阶段将推动应用开发和系统架构创新,特别有利于超大规模厂商。谨慎的推广确保CXL解决方案在规模生产时保持强健优化,准备提供突破性能。这一协同优化阶段最终将加速CXL普及,彻底革新数据中心架构。

GPU接口发展

GPU目前主要使用HBM实现高带宽数据访问,依赖PCIe从主机节点或NVMe SSD获取大量数据。CXL 3.0支持的内存池将使GPU通过交换机实现更快的数据访问。然而,CXL 3.0设备短期内不会广泛上市。

数据中心更新挑战

CXL部署很大程度上依赖技术更新周期,考虑到现有数据中心实施的时间、精力和成本,更新工作将面临挑战。

CXL的近期、中期和长期预期

CXL目前处于早期阶段,市场上主流商用解决方案基于CXL 1.1或CXL 2.0构建。然而,强大的生态系统支持预示该标准将实现快速发展和广泛应用。预计,到2027年或更早,CXL将获得广泛采用,为PCIe带宽提升和生态系统成熟提供时间。自2019年推动者小组成立以来,吸引了计算生态系统中的关键参与者,包括整合竞争性标准Gen-Z和OpenCAPI,进一步增强了支持力度。内存解决方案背景的联盟成员对CXL路线图持积极态度,采纳速度令人鼓舞。

图4:CXL技术市场采用预测

近期展望(现在至3年)

CXL正迈向商业成熟和应用拐点。多数解决方案基于CXL 1.1或2.0构建,预计CXL 2.0解决方案将在2025年实现规模化生产。商业部署将通过生态系统成员间创新驱动的合作得到支持:
  • 独立软件供应商(ISV)将持续在软件开发和应用研发方面贡献力量
  • VMware和Red Hat等关键厂商将支持CXL在云环境中的验证和实现
  • 内存供应商积极构建指令集和参考架构,展示CXL价值
  • 行业对CXL 2.0软件兼容性的支持将推动以内存和大数据应用为重点的稳步采纳

近期末,商用部署将陆续进入市场,主要集中在新建数据中心和支持内存应用的企业服务器。部分部署虽支持AI/ML,但将专注于基于CPU的工作负载(如图形计算),无法支持依赖GPU处理的前沿AI模型。

中期展望(3至7年)

中期将迎来CXL采纳拐点。预计,到2027年,基于PCIe 6.0的CXL 3.0/3.1解决方案将实现商用,并获得充分软件支持加速商业化应用。PCIe 6.0提供的更高带宽将支持更多带宽敏感的应用场景,包括AI/ML。

生态系统合作伙伴关系将走向成熟,整合硬件和软件研发。紧密集成将加速产品上市时间,推动关键应用和用例部署。联合研发将加速产品上市,基于CXL 3.0+推进内存池和交换技术。随着CXL创新稳定,超大规模厂商等关键客户将从"观望"转向加速核心内存应用的商业部署,通过扩展CPU、FPGA及其他加速器内存类型支持非生成式AI/ML工作负载。

供应商研发将越来越多地通过支持GPU-内存解决方案扩大总潜在市场(TAM)。这些研发将依托CXL 3.0+,支持与NVIDIA、AMD和Intel的GPU兼容性。

硬件和软件合作,特别是面向云环境的合作将加速可组合基础设施和虚拟化技术发展。中期将见证"内存即服务"(Memory-as-a-Service)和软件定义内存的概念验证和测试,超大规模厂商将积极参与CXL联盟推动技术进步。

长期展望(7年及以上)

长期来看,CXL将实现跨云服务商(CSP)和企业服务器的规模化部署,大多数CPU将采用CXL 3.0+。这些部署将支持各类高内存应用场景,包括AI/ML。部分商用GPU将与CXL兼容,支持前沿AI/ML工作负载。多级交换和直接对等内存将实现系统内GPU-内存的全面连接。

最重要的进展是超大规模厂商采用基于虚拟化和可组合基础设施的新型内存解决方案。长期将实现"内存即服务"的广泛应用,显著降低基础设施成本。

CXL成本效益分析

本评估探讨了CXL内存扩展技术对服务器潜在的成本效益。评估基于CXL 1.1或CXL 2.0 AIC(Add-in Card)的DRAM配置。虽然这些解决方案尚未正式商用,但已进入预生产阶段,并已通过Intel的验证测试和认证,预计将于2024年第四季度实现规模化生产。

图表2:4096GB DRAM配置下的CXL成本优化分析

图表2表明,通过部署CXL AIC实现内存扩展后,每GB内存成本可降低约56%。同时,在实现相同内存容量的情况下,所需的服务器机箱成本也相应降低。

图表3:8192GB DRAM配置下的CXL成本优化分析

图表3显示内存扩展可使每GB成本降低约52%。图表4则展示了在使用双列DIMM时,CXL部署对每GB成本的影响。采用CXL技术后,具备内存扩展功能的处理器每GB成本显著下降,平均降幅达55%。

图表4:CXL与传统解决方案成本效益对比

CXL内存扩展技术对资本支出(CAPEX)具有重大影响。业界普遍认为,对超大规模数据中心运营商(Hyperscalers)而言,内存成本约占总资本支出的50%。因此,CXL技术的应用将为新建和改造型数据中心带来显著的成本优势。内存成本优化是推动CXL技术发展的主要动因之一,而其整体性能提升也是其核心价值主张。通过减少低延迟DDR与高延迟SSD之间的数据交换,内存扩展显著提升了应用程序的整体性能。

战略建议

CXL技术为市场各相关方,特别是云服务商(CSP)提供了明确的技术和商业价值。然而,过去五年间硬件与软件研发进度的不同步可能会制约CXL的商业化进程。展望未来,我们建议生态系统应着重构建加速CXL商业化的基础设施。以下为需重点关注的战略领域:

应用场景开发与展示:尽管CXL展现出显著潜力,但多数潜在客户仍持观望态度。供应商需要开发应用案例,展示CXL在不同环境下的性能提升和成本优化效果。

加强设备开发与软件集成:应用优化是CXL规模化部署的关键挑战。主要潜在客户如CSP,在确保其客户工作负载性能之前不会部署CXL。能够通过自动分层、软件定义内存池(如Samsung的Scalable Memory Development Kit、Astera Labs的Leo平台、MemVerge的Memory Machine)来弥补应用性能差距的软件解决方案将发挥关键作用。

扩展生态系统合作:获取虚拟化管理程序(如VMware)和企业软件供应商(如Red Hat)的支持至关重要。CXL 2.0+将通过内存池和CXL交换技术推动服务器解耦和虚拟化,为超大规模运营商构建软件定义内存方案创造机会。

加强服务器OEM与芯片组供应商合作:软件供应商需与硬件供应商协作,加速验证进程。Dell、Lenovo、HPE和Supermicro等服务器OEM厂商在内存池机箱产品推广中将扮演重要角色。

市场领导者持续推进:考虑到新内存解决方案的研发成本和时间投入,处理器市场领导者需展示对新规范的长期支持(建议超过3年)。除传统CPU厂商外,Arm也可能成为潜在的市场领导者,其最近宣布支持CXL的决定将影响现有厂商的战略布局。

拓展GPU合作机会:虽然GPU目前仍使用高带宽内存(HBM)以满足低延迟需求,但如Panmnesia(与KAIST合作)等内存供应商正在开展概念验证(PoC),展示CXL在GPU领域的应用潜力。生态系统参与者应着手与主要GPU供应商建立合作关系,特别是在前沿AI开发方面。

结论

内存已成为数据中心市场面临的核心技术和商业挑战之一。CXL为市场提供了具有成本效益的内存扩展方案,同时提升了内存密集型应用(如IMDB、HPC、AI/ML)的整体性能。然而,由于生态系统仍在协调产品研发周期与软件开发进度,CXL仍处于商业化初期。在AI/ML工作负载总潜在市场(TAM)快速增长的背景下,生态系统和联盟成员必须加强硬件与软件协同,加速商业可行内存解决方案的部署进程。

----------

参考资料:Hayden, R., & Schell, P. (2024). Opportunities and Challenges for Compute Express Link (CXL). ABI Research.


--【本文完】---

近期受欢迎的文章:
  1. NVMe-oC:CXL SSD的全新理念(PPT)
  2. 【论文】基于设备端分析的CXL原生内存分级技术
  3. FMS 2024:CXL展现强劲势头(2篇)
  4. 在AI时代,CXL已死
  5. 运用CXL技术,突破“内存墙”(Astera)



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存